首页手记 Python用lxml库解析html并将爬取的数据存储...

Python用lxml库解析html并将爬取的数据存储到MySQL数据库

标签：

Python

总的：

1.from lxml import etree

2.对html文本使用 etree.HTML(html)解析，得到Element对象

3.对Element对象使用xpath筛选（中间会穿插使用正则表达式），返回一个列表

4.本文为实战爬取豆瓣电影top250的信息，并将数据存入mysql中

5.用Navicat进行数据的可视化

实战：

导入要用到的库
import requests
from lxml import etree
import re
import pymysql
import time
定义函数用来解析html

#建立数据库连接,(数据库中原先就应该有一个database,如果没有要先创建一个database,我这里创建的叫scraping)conn = pymysql.connect(host='127.0.0.1', user='root', passwd='yourpasswd', db='scraping', port=3306, charset='utf8')
cursor = conn.cursor()#头文件headers = {    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}#定义的获取电影url的函数def get_movie_url(url):
    html = requests.get(url,headers=headers)    #解析html
    selector = etree.HTML(html.text)    #利用xpath获取电影url
    movie_hrefs = selector.xpath('//div[@class="hd"]/a/@href')    for movie_href in movie_hrefs:
        get_movie_info(movie_href)

获取的url

定义子函数用来解析每一部电影（每个url）的元素属性

def get_movie_info(url):
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)    try:
        name = selector.xpath('//*[@id="content"]/h1/span[1]/text()')[0].strip()
        director = selector.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0].strip()
        actors = selector.xpath('//*[@id="info"]/span[3]/span[2]')[0]
        actor = actors.xpath('string(.)')
        style = re.findall('<span property="v:genre">(.*?)</span>',html.text,re.S)[0].strip()
        country = re.findall('<span class="pl">制片国家/地区:</span> (.*?)<br/>',html.text,re.S)[0].strip()
        release_time = re.findall('上映日期:</span>.*?>(.*?)</span>',html.text,re.S)[0].strip()
        time = re.findall('片长:</span>.*?>(.*?)</span>',html.text,re.S)[0].strip()
        score = selector.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/strong/text()')[0].strip()        #在数据库中建立表格叫doubanmovie，表中包括以上属性
        cursor.execute(            "insert into doubanmovie (name,director,actor,style,country,release_time,time,score) values(%s,%s,%s,%s,%s,%s,%s,%s)",
            (str(name), str(director), str(actor), str(style), str(country), str(release_time), str(time), str(score)))    except IndexError:        pass

实现

if __name__ == '__main__':    #获取电影榜top250,网站把排名分为10页,每页25部电影，所以用以下形式构造url
    urls = ['https://movie.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]    for url in urls:
        get_movie_url(url)
        time.sleep(2)    #把数据写入数据库的表中
    conn.commit()

效果
数据列表

Navicat 是一套快速、可靠并价格相宜的数据库管理工具，
Navicat
专为简化数据库的管理及降低系统管理成本而设。它的设计符合数据库管理员、开发人员及中小企业的需要。Navicat 是以直觉化的图形用户界面而建的，让你可以以安全并且简单的方式创建、组织、访问并共用信息。

Navicat目前还是一款收费软件，但是可以在网络上寻找一些破解版本，也可以找笔者要，笔者很乐意和大家分享学习经验，也希望大家多多指导笔者，共同进步！笔者微信wuzhenpingcc。

作者：小呉同学
链接：https://www.jianshu.com/p/d23f8af274e9

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

沧海一幻觉

手记
篇

粉丝

34

获赞与收藏

198

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 24442 825

Python 算法入门教程

15个小节 25869 1015

Python 进阶应用教程

38个小节 61789 964

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空